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摘要 : [目的 /意义 ] 国 家 政府 、 大 中 型 企业 以 及 研究 机 构 面 对 技术 难题 ,如 何 找 到 合适 的 专家 是 边 切 需要 


解决 的 问题 。 面 对 需要 运用 多 学 科 知 识 来 解决 的 综合 ， 


复杂 难题 ,寻找 到 多 专长 专家 显得 尤为 重要 ,寻找 合适 


的 方法 识别 出 多 专长 专家 是 未 研究 的 目的 。[ 方 法 /过 程 ] 利 用 专家 所 发 表 的 学 术 论文 数据 ,通过 抽取 专家 有 代 
表 性 的 研究 专长 特征 ,基于 TFIDF 加 权 的 重 登 K-means 聚 类 算法 对 专家 进行 重 覃 聚 类 划分 , 挖 所 出 专家 的 多 个 
研究 专长 ,进而 识别 出 多 专长 专家 。[ 结 果 / 结 论 ] 研究 结果 表明 TFIDF 加 权 的 重 登 K-means 聚 类 算法 在 查 准 


夫 、 召 回 率 和 下 值 上 有 良好 的 表现 ,可 以 识别 多 专长 专家 。 
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重 县 KK-means 


5 在 日 益 激烈 的 国际 化 与 商业 化 竞争 中 ,迅速 地 掌 
握 与 分 析 需 求 并 提供 高 效 的 解决 方案 是 取得 决胜 的 关 
键 内 素 。 在 当今 知识 社会 ,迫切 的 知识 需求 正在 显现 ， 
专案 识别 与 推荐 作为 信息 检索 和 知识 管理 领域 的 研究 
扒 点 ,已 经 越 来 越 受 到 人 们 的 关注 。 专 家 识别 目的 是 
通 吕 一 系列 的 方法 来 发 现 那些 拥有 丰富 专业 知识 , 技 
能 瑟 经 验 的 领域 专家 , 以便 组 织 团队 ,指导 研发 ,攻关 
技 钉 ,以 此 来 提高 工作 或 生产 效率 ": 。 面 对 目前 国家 
政府 .大 中 型 企业 以 及 研究 机 构 技术 专家 无 处 选 .无 法 
选 的 现状 ,如 何 针 对 特定 知识 与 技术 需求 找到 合适 的 
专家 是 一 个 值得 研究 和 急需 解决 的 问题 。 
专家 信息 的 分 析 和 挖掘 是 专家 识别 的 前 提 , 如 何 
表征 专家 知识 ,对 专家 进行 聚 类 和 分 类 是 其 中 关键 的 
一 环 。 专 家 专长 是 指 专家 对 技能 与 知识 的 掌握 号 ,R. 
Glaser ”指出 专家 专长 具有 5 个 特征 :具有 持续 竞争 
力 ; 具 体 ;可 以 更 好 地 识别 重要 有 是 有 意义 的 模式 ;有 一 
定 程序 以 及 便于 通过 事实 识别 问题 。 专 家 专长 是 一 种 
隐 性 知识 ,故而 要 通过 有 形 的 结果 ,如 专家 主持 项 目 、 
> 表 期 刊 论文 等 相关 文档 进行 专家 专长 的 识别 和 挖 


掘 ”。 以 往 的 研究 常 以 专家 最 高 产 的 研究 领域 代表 其 
研究 专长 ,但 是 在 实际 情况 中 ,专家 往往 具有 多 个 研究 
专长 ”。 发 现 和 识别 出 专家 的 多 个 研究 专长 能 更 好 地 
进行 专家 评估 和 推荐 。 此 外 ,以 往 的 研究 大 多 使 用 非 
重 硬 聚 类 方法 对 专家 进行 聚 类 , 这 种 方法 把 专家 唯一 
分 配 到 某 一 类 别 中 ,忽略 了 专家 的 多 个 研究 专长 ,不 能 
识别 多 专长 专家 。 针 对 现 有 研究 中 存在 的 这 一 问题 ， 
本 文采 用 重 琵 聚 类 算法 对 专家 进行 聚 类 ,避免 非 重重 
聚 类 带 来 的 信息 缺失 问题 ,同时 更 好 地 表征 专家 专长 ， 
挖掘 多 专长 专家 。 

鉴于 此 ,本 文采 用 专家 发 表 的 学 术 论 文 为 数据 , 通 
过 向 量 空间 模型 来 表征 专家 知识 ,利用 TFIDF (Term 
Frequency - Inverse Document Frequencey) 加 权 的 重 著 KK- 
means 聚 类 算法 “ 对 专家 进行 聚 类 ,同时 识别 多 专长 
专家 。 本 文 以 大 数据 领域 的 专家 为 案例 进行 研究 , 识 
别 出 大 数据 领域 的 多 专长 专家 。 


2 文献 综述 

专家 专长 的 识别 是 专家 遵 选 和 推荐 的 基础 ,早期 
的 专家 专长 识别 方法 多 依赖 于 专家 本 人 描述 自己 的 专 
长 领域 ,并 以 此 构建 数据 库 , 再 利用 传统 数据 库 查 询 语 
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言 来 识别 专家 专长 ,该 方法 的 主要 缺点 是 专家 参与 的 
主观 性 以 及 对 数据 库 的 更 新 缺乏 时 效 性 ”。 对 此 ， 


体 \ 准 确 地 表征 科研 领域 的 专家 专长 ,故而 被 广泛 使 
用 。 在 对 专家 进行 聚 类 的 过 程 中 ,传统 的 聚 类 算法 往 


些 学 者 尝试 使 用 文档 数据 (论文 .专利 ,项目 报告 
等 )"-" 及 其 他 行为 数据 ( 网 络 标签 .社交 小 组 等 )"" 
来 分 析 专 家 专长 。 从 方法 上 看 ,目前 的 专家 专长 识别 
研究 主要 通过 基于 本 体 的 方法 、 基 于 拓扑 结构 社区 发 
现 算法 和 基于 主题 的 专家 聚 类 方法 来 实现 。 

基于 本 体 的 专家 专长 识别 方法 通过 构建 领域 本 
体 ,可 以 很 好 地 解决 关键 词 之 间 的 语义 关系 “”" ,从 
而 实现 专家 专长 识别 。 胡 月 红 等 ' 利用 FCA 和 关联 
规则 分 析 的 方法 构建 了 情报 学 领域 的 本 体 ,利用 关键 
词 到 本 体 之 间 的 映射 实现 了 基于 关键 词 的 专长 描述 到 
基于 领域 本 体 的 专家 专长 描述 ; 刘 昕 民 等 "9 提出 了 4 
层 模 糊 本 体 扩展 框架 ,并 利用 该 模型 建立 了 科技 评价 
令吉 的 专家 模糊 本 体 ,实现 了 专家 六 选 。 
OO 〇 基于 拓扑 结构 的 方法 从 网 络 模型 的 拓扑 结构 出 
短 将 专家 视 为 网 络 节点 ,将 专家 之 间 的 联系 当 作 网 络 
的 能 ,从 而 建立 起 网 络 模型 ,如 作者 合 著 网 络 、 作 者 夺 
使 网 络 "” .作者 共 引 网 络 等 ;Y.Li 等 "利用 香农 炉 计 
算 网 络 信息 ,通过 引用 网 络 进行 专家 社 群 挖掘;B. Dom 
从 9 利用 基于 图 论 的 排名 算法 进行 专家 社 群 分 析 ; 现 
军 鲍 '” 利用 谱 分 割 算法 和 模块 度 评价 指标 对 专家 专 
堪 浊 行 划 分 ; 刘 萍 等 "利用 共 词 网 络 ,以 社区 划分 的 
方 滨 对 关键 词 肾 类 ,识别 专家 专长 。 
基于 主题 的 专家 聚 类 "方法 通过 文本 挖 气 , 可 
以 找到 专家 的 研究 兴趣 和 范围 ,挖掘 兴趣 相投 的 专家 
聚 艇 ” ,主要 的 算法 包括 识别 研究 主题 的 层次 结构 的 
层 状 聚 类 5 、LDAD .PLSA 等 主题 模型 。 张 晓 如 
等 ”利用 PLSA 识别 图 书 情报 领域 的 专家 专长 ,通过 
文档 - 主题 和 主题 - 关键 词 两 个 矩阵 ,确定 专家 的 研 
究 主题 。 

通过 本 体 进行 专家 专长 识别 往往 要 耗费 大 量 时 间 
和 精力 来 构造 领域 本 体 ,通过 拓扑 结构 发 现 专家 社区 
往往 不 能 很 好 地 表示 出 社区 和 社区 之 间 的 关系 ,专家 
专长 识别 也 缺乏 对 专家 研究 内 容 的 分 析 。 通 过 主题 进 
行 专家 聚 类 和 识别 不 仅 能 更 好 地 表达 语义 ,而 且 在 处 
理 大 量 数据 时 有 明显 的 优势 。 故 而 ,本 文选 用 基于 主 
题 的 专家 到 类 方法 进行 专家 专长 识别 。 

对 于 基于 主题 的 专家 取 类 方法 ,如 何 通过 文本 表 
征 专家 研究 专长 ,以 及 如 何 计算 专家 对 不 同 主题 的 隶 
属 度 是 影响 专家 专长 识别 效果 的 两 个 重要 因素 。 专 家 
发 表 论文 的 关键 词 、 项 目的 申请 书 以 及 网 络 标签 等 都 
被 用 来 表征 专家 研究 专长 ,其 中 论文 的 关键 词 可 以 具 
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往 把 专家 分 入 唯一 的 类 别 当 中 ,而 实际 情况 中 大 多 数 
专家 都 具有 多 个 研究 专长 ,传统 的 非 重 又 聚 类 忽略 了 
这 一 情况 。 因 此 ,如 何 避 免 聚 类 过 程 中 造成 的 信息 损 
失 是 专家 专长 识别 研究 中 的 一 个 重要 问题 ,本 文 考虑 
引入 重 谷 肾 类 的 思想 解决 这 一 问题 。 重 合 肾 类 算 
法 ” ”的 主要 思想 是 挖掘 每 个 对 象 对 不 同类 别 的 隶 
属 度 ,通过 设置 合适 的 阐 值 更 好 地 对 每 个 对 象 的 特征 
加 以 表示 ,使 分 类 结果 更 准确 全 面 ,同时 具备 更 强 的 可 
读 性 。 基 于 主题 的 专家 聚 类 方法 也 由 此 衍生 出 基于 主 
题 的 专家 重 登 聚 类 方法 。 当 前 基于 主题 的 专家 重生 聚 
类 方法 的 研究 相对 缺乏 ,本文 试图 在 这 方面 做 出 尝试 。 


通过 基于 主题 的 专家 聚 类 方法 对 专家 专长 进行 识 
别 ,首先 需要 使 用 恰当 的 主题 词 表征 专家 知识 ,这 是 专 
家 专长 识别 的 基础 ;其 次 需要 合适 的 聚 类 算法 来 计算 
专家 对 于 每 个 主题 的 隶属 度 ,这 是 专家 专长 识别 的 关 
键 。 本 部 分 从 专家 - 关键 词 矩阵 构建 和 重 和 到 聚 类 算法 
分 析 两 个 部 分 对 于 研究 方法 进行 阐述 。 
3.1 专家 -关键 词 矩 阵 的 构建 

专家 发 表 的 论文 .专利 \ 项 目 等 文本 信息 包含 着 丰 
富 的 专家 知识 ,如 何 从 中 获取 有 效 的 信息 ,提升 知识 发 
现 的 能 力 是 当前 情报 学 研究 中 十 分 关注 的 问题 。 通 过 
对 专家 文本 进行 筛选 和 处 理 , 挑 选 出 合适 的 主题 词 表 
征 专家 知识 ,然后 通过 一 定 规则 构建 专家 - 关键 词 矩 
阵 是 专家 专长 识别 的 第 一 步 。 
3.1.1 关键 词 的 获取 ”情报 学 、 科 学 学 等 领域 中 大 量 
研究 者 对 文本 数据 的 处 理 展 开 了 研究 ,大 量 的 分 析 技 
术 和 方法 均 围 绕 主题 词 展开 ” 。 首 先 ,通过 科技 文献 
获取 主题 词 ,这 些 主 题词 可 以 是 专家 自己 提供 的 关键 
词 ,也 可 以 是 通过 自然 语言 处 理 得 到 的 关键 词 。 其 次 ， 
使 用 停 词 表 、 科 技 期 刊 文献 常用 词 表 等 移 除 主题 词 中 
无 意义 或 文献 中 普遍 出 现 的 单词 。 然 后 ,基于 单词 的 
词 干 通过 模糊 语义 人 处理 对 主题 词 的 动 名 词 变化 、 单 复 
数 变化 以 及 时 态 变化 等 做 清洗 ,同时 通过 人 工 建立 缩 
写 词 表 ,将 主题 词 中 的 全 称 与 缩写 进行 合并 。 最 后 , 依 
据 主题 词 中 出 现 频次 或 者 TFIDF 等 方法 选择 合适 的 关 
键 词 表 示 领 域 的 专家 知识 。 
3.1.2 专家 -关键 词 矩 阵 的 构建 ”基于 获取 的 表征 
专家 知识 的 关键 词 ,可 以 构建 出 专家 - 关键 词 的 共 现 
矩阵” 。 通 过 对 特征 项 赋 权 的 方法 增加 特征 项 的 
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以 大 数据 领域 为 例 [J]. 图 书 情报 工作 ,2018 ,62(3):55 - 63. 


区 分 能 力 是 文本 分 类 中 一 种 常用 的 方法 ,有 研究 显示 
文本 分 类 中 特征 项 权重 的 赋予 对 于 分 类 效果 有 较 大 的 
影响 ” 。 在 本 文 的 研究 中 ,考虑 到 不 同 的 关键 词 在 进 
行 专家 聚 类 的 过 程 中 的 区 分 能 力 不 同 ,对 其 赋予 不 同 
的 权重 以 期 得 到 更 好 的 聚 类 效果 。TFIDF 是 一 种 用 于 
信息 检索 与 数据 挖掘 的 常用 加 权 技 术 '” ,其 主要 思想 
是 :如 果 某 个 词 或 短语 在 一 篇 文章 中 出 现 的 频率 高 ,并 
且 在 其 他 文章 中 很 少 出 现 , 则 认为 此 词 或 者 短语 具有 
很 好 的 类 别 区 分 能 力 , 适 合用 来 分 类 。 实 际 上 ,TFIDF 
=TF*IDF, 其 中 TF 为 词 频 (Term Frequency ) ,IDF 为 
逆向 文件 频率 (Inverse Document Frequency ) 。 
本 文 以 专家 为 行 向 量 , 关 键 词 为 列 向 量 构建 如 下 
的 专家 -关键 词 矩 阵 : 
于 tf 所 
7 : 


fy tf, 
兴 表 示 专 家 i 所 发 表 的 文献 中 主题 词 j 出 现 的 频 
率 沁 对 关键 词 计算 TFIDF ,得 到 向 量 TFIDF = tfidf.， 
J 多 …,yid,) ,其 中 yidy 表示 主题 词 j 的 TFIDF 值 。 
0 
此 hl 


tf * tfidf th, * tfidj, 


MM’ = : o 
tf * tfidf, tf,, * tfid, 
重 琶 Kmeans 聚 类 算法 

.二 本文 选取 了 G，Cleuziout 提出 的 重 蚕 K-means 算 
法 对 专家 进行 聚 类 划分 5 ,并 对 算法 进行 加 权 改 进 。 
区 别 于 传统 的 人 -means 算法 , 重 着 KK-means 算法 将 每 
个 数据 点 聚 类 到 一 个 或 多 个 聚 类 当中 。 重 蚕 K -means 
算法 的 优点 在 于 :中 相对 于 分 配 聚 类 , 重 达 聚 类 算法 可 
以 把 一 个 点 分 配给 多 个 聚 类 ;@ 可 以 更 客观 地 反映 点 
的 位 置 ,因为 算法 的 停止 条 件 是 每 个 点 的 影像 离 这 个 
点 的 距离 足够 小 ;@ 数 据 处 理 相 对 连续 ,在 图 像 识别 领 
域 有 广泛 应 用 ;中 算法 复杂 度 低 , 对 大 数据 量 的 数据 有 
时 间 优 势 。 基 于 这 些 优势 ,本 文 使 用 重 炙 -means 聚 
类 算法 对 专家 进行 聚 类 。 这 种 方法 可 以 弥补 以 往 的 专 
家 专长 识别 研究 中 往往 只 识别 专家 一 个 专长 的 不 足 ， 
避免 非 重 释 聚 类 带 来 的 信息 缺失 问题 ,全 面 挖掘 专家 
的 研究 专长 ,更 好 地 识别 多 专长 专家 。 
重合 K-means 聚 类 算法 分 为 两 个 过 程 , 聚 类 过 程 


和 点 的 分 配 过 程 。 
3.2.1 聚 类 过 程 ” 聚 类 过 程 通过 迭代 不 断 更 新 聚 类 


中 心 ,并 达到 组 内 差异 最 小 化 .组 间 差异 最 大 化 。 每 位 
专家 用 p 维 向 量 xs = (xi xs，…,xn ) 表示 ,专家 集 记 为 
X= |x| "1, 将 n 位 专家 聚 为 k 个 重 友 聚 类 具体 步骤 如 
下 。 

人 中 随机 选择 k 个 初始 点 作为 k 个 聚 簇 的 初始 中 心 
点 , 记 为 [lm | -is 

@ 计 算 每 个 x 到 上 个 初始 点 的 距离 ,将 其 分 配 到 
距离 最 小 的 这 一 组 中 ,得 到 一 个 X 的 覆盖 1 上 ,其 
中 7 = xlm eA ,A,=|m,lx,en.| 表 示 x 属 
于 的 聚 秘 的 集合 。 

@ 令 t=0。 

@ 对 每 个 聚 簇 | 7m | ,计算 新 的 各 个 聚 簇 中 心 点 
mi =PROTOTYPE( 7" )。 

进行 新 的 聚 类 分 配 , 计 算 分 配 函 数 A''*” = AS- 
SIGN(x;, jm | ,AW ) ,得 到 新 的 覆盖 | mw 1*.,。 

@ 计 算 目 标 函数 值 I(| wm,1) ) = ,xdist(x;,q 
(x;)) ,如 果 t,, >t 或 者 I(|T| ) -Im )>e， 
令 1=t+1, 返 回 step4; 否则 结束 循环 ,输出 


jm 人 


e119 


3.2.2 点 的 分 配 过 程 ” 点 的 分 配 过 程 ,也 就 是 分 配 函 
数 的 计算 过 程 ,通过 每 位 专家 在 每 次 迭代 中 对 各 个 类 
别 的 隶属 度 ,找到 最 合适 的 分 配方 案 。 

g 记 Ai; = lm |} ,其 中 恬 ” =argmin( dist( x ,m, ) ) 
计算 点 x 的 we(x) = 车 Mo 。 

@ 寻 找 除 了 已 经 分 配 到 的 聚 类 之 外 最 近 的 中 心 
点 ,m = argmin ( dist (xi, me) ) ,计算 在 新 分 配 Ai U 
jm 下 点 x 的 g(x;)。 

图 如 果 1x -ea) | < -p(x) 1 , 令 A 一 
jm 和 ,q(x;) = 中 (xi) ,返回 @; 和 否则 ,计算 原始 分 配 
Au 下 的 p(x) ,如 果 dist (x;, 8 (x3)) < dist(x em 
(x;) ) 则 输出 A, ,否则 输出 A” 。 

其 中 ,计算 中 心 点 的 方法 如 下 :ml ”= PROTO- 
二 .Qi mh 1 

ee 
im.lxi;e To} 表示 x 属于 的 肾 簇 集合 ,1A;| 表 示 xi 属 
于 的 聚 徐 的 集合 个 数 , 数 据点 x; 在 h 聚 篮 中 的 映射 m， 
=1Ail xi 一 之 weAvimlmeo 

通过 重 伙 KK-means 聚 类 算法 对 专家 进行 聚 类 ,可 
以 得 到 每 个 专家 所 属 的 类 别 。 每 个 类 别 表 示 一 个 研究 
专长 ,每 个 专家 所 属 的 类 别 即 为 其 具有 的 研究 专长 , 属 
于 多 个 类 别 的 专家 即 为 多 专长 专家 。 


TYPE(T ) ,m= 
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4 案例 分 析 : 大 数据 领域 的 多 专长 专家 


识别 研究 


4.1 实证 数据 选取 

本 文选 取 Web of Science 核心 集中 被 SCIEZSSCI 
索引 的 大 数据 领域 的 相关 论文 作为 研究 对 象 。 检 索 策 
略 的 好 坏 关 系 到 检索 结果 的 质量 ,从 而 影响 到 最 终 分 
析 的 准确 程度 。 因 此 ,在 查阅 大 量 文 献 后 ,本 文 借鉴 了 
较为 严谨 科学 的 检索 策略 ” 。 检 索 式 如 下 :TS = 
((“Big Data” or Bigdata) OR (((Big Near1 Data or 
Huge Near/1 Data) OR “ Massive Data” OR “ Huge Infor- 


mation” OR “ Big Information” OR “ Large -scale Data” 
OR “ Semi -Structured Data” OR “Unstructured Data” ) 
AND, (“ analytic * ” OR 
* 加 ) ) ,检索 区 间 选 取 为 2008 年 至 2016 年 ,最 终 得 到 
112381 篇 论文 文献。 
村 关键 词 在 一 定 程度 上 可 以 表征 文章 的 主题 ,但 由 
氟 直 存在 未 规范 的 词汇 , 且 存 在 同 义 、 近 义 或 无 实际 意 
交 的 词汇 ,所 以 需要 对 关键 词 进行 进一步 处 理 。 主 要 
a 哆 如 下 : DD 合并 作者 关键 词 ( Keywords -Author) 和 扩 
同 关 刍 词 ( Keywords-Plus) 字 段 , 得 到 关键 词 39 394 个 ; 
(@ 肖 过 VantagePoint 模糊 匹配 模块 ,消除 关键 词 的 
辫 讽 数 形 式 及 词 形变 化 ,如 “networks” 和 “network” 合 
并 劳 “network"” ,得 到 关键 词 35 426 个 ;@@ 建 立 人 工 词 
坊 路 部 分 简写 关键 词 与 其 全 称 合并 ,如 “HDF” 和 “十 - 
cica Data Format” 合 并 为 “Hierarchical Data For- 
ma 区 ,最 终 得 到 35 299 个 关键 词 。 
-加 考虑 到 样本 量 较 小 时 , 聚 类 结果 解释 性 和 适用 性 
较 差 ,样本 量 太 大 时 ,计算 聚 类 结果 准确 性 时 需要 人 工 
标记 的 工作 量 太 大 , 故 本 文选 取 了 发 文 量 在 10 篇 以 上 
的 137 位 专家 (数据 集中 共有 47 489 位 作者 ) 进行 聚 
类 分 析 。 在 关键 词 的 选择 上 应 该 兼 具 代表 性 和 全 面 
性 , 词 频 在 40 以 上 的 251 个 关键 词 对 文章 覆盖 率 达到 
71.7% ,故而 本 文选 取 了 前 251 个 关键 词 对 专家 进行 
分 类 。 基 于 构建 的 137 位 作者 和 251 个 关键 词 的 矩 
阵 ,可 以 对 此 作者 - 关键 词 矩 阵 进行 聚 类 计算 。 
重合 -means 算法 要 求 设 定 聚 类 个 数 和 选择 初始 
中 心 点 ,本 文 结合 大 数据 领域 研究 综述 的 分 类 体系 和 
关键 词 主 成 分 分 析 的 结果 进行 选择 。 通 过 阅读 大 数据 
领域 的 研究 综述 及 报告 , 李 贺 . 豆 滩 敏 等 5 将 大 数据 
研究 分 为 3 个 方面 :四 大 数据 的 基本 理论 研究 ,包括 大 
数据 的 起 源 与 发 展 ,基本 概念 ,数据 特征 及 基本 构架 ， 
现实 意义 等 ;@ 大 数据 存储 与 分 析 技 术 研 究 ,包括 云 计 


”analyz * ” OR “ analys 
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算 、Hadoop 和 MapReduce 算法 及 其 改进 ,数据 挖掘 聚 
类 技术 及 其 他 技术 ;G@ 大 数据 应 用 研究 ,如 应 用 于 生物 
医药 的 基因 测序 ,社会 网 络 领域 的 社交 信息 挖掘 等 。 
2014 年 工业 和 信息 化 部 电信 研究 院 发 布 的 4 大 数据 白 
皮 书 》” 中 首先 探讨 了 大 数据 的 概念 ;在 技术 层面 , 认 
为 大 数据 从 数据 源 经 过 分 析 挖 掘 到 最 终 获得 价值 一 般 
需要 经 过 5 个 主要 环节 ,包括 数据 准备 .数据 存储 与 管 
理 .计算 处 理 . 数 据 分 析 和 知识 展现 ,其 中 大 数据 存储 、 
技术 和 分 析 技 术 是 关键 ;在 应 用 方面 ,指出 大 数据 的 应 
处 于 发 展 初期 ,应 该 予以 高 度 的 重视 和 支持 。 通 过 
阅读 大 数据 领域 的 行业 报告 及 综述 研究 ”笔者 发 现 ， 
本 领域 比较 权威 的 分 类 方法 是 将 研究 领域 分 为 3 类 ， 
即 大 数据 的 基本 理论 研究 .大 数据 存储 与 分 析 技 术 研 
究 以 及 大 数据 应 用 研究 。 同 时 ,本 文 对 大 数据 领域 的 
词 频 在 40 以 上 的 前 251 个 关键 词 进行 主 成 分 分 析 ,得 
到 12 个 类 别 ,分 别 为 :Classification、Lasso、Recommen- 
der System 、Hadoop 、Hadoop (2 ) 、City 、Cene 、Managers 、 
Mass spectrometry 、Risk Thing 和 Twitter。 聚 类 结果 可 
视 化 如 图 1 所 示 。 其 中 Classification 和 Lasso 两 类 呈现 
一 定 相 关 性 ,Recommender System .Hadoop .Hadoop(2) 、 
Gene 和 Mass spectrometry 5 类 呈现 相关 性 ,City 、Manag- 
ers Thing 和 Twitter 4 类 呈现 相关 性 。 由 此 主 成 分 分 析 
的 结果 可 以 看 到 上 述 的 12 个 主 成 分 类 别 也 主要 分 为 3 
类 ,这 与 文献 综述 及 行业 报告 的 分 类 是 一 致 的 。 

故而 ,本 文 综 合 主 成 分 分 析 的 结果 与 大 数据 领域 
的 研究 综述 的 分 类 方法 ,将 大 数据 领域 具体 分 为 3 个 
类 别 :基本 理论 研究 ,以 Classification，Lasso 等 关键 
词 为 代表 ;@ 存 储 与 分 析 处 理 技术 ,以 Cloud Compute、 
Hadoop 、MapReduce、Recommender System 等 关键 词 为 
代表 ;应 用 研究 ,以 Internet of Thing .Smart City 、Twit- 
ter .Gene ,Manager 等 关键 词 为 代表 。K -means 算法 对 
初始 聚 类 中 心 十 分 敏感 , 聚 类 结果 随 不 同 的 初始 输入 
而 波动 ” 。 本 文通 过 PCA 主题 聚 类 之 后 对 初始 聚 类 
中 心 代 表 专 家 进行 选择 。A. J， Jara 共 发 表 论 文 12 
篇 ,其 中 11 篇 均 以 大 数据 的 应 用 研究 为 主题 ,故而 选 
取 A. J. Jara 为 应 用 研究 类 别 的 代表 。 同 理 , 选 择 S. 
Fong 为 基本 研究 领域 的 代表 专家 ,X， Zhang 为 存储 与 
分 析 处 理 技 术 的 代表 专家 。 
4.2 实证 分 析 结 果 

通过 重 硬 K-means 聚 类 算法 和 TFIDF 加 权 的 重重 
K-means 聚 类 算法 识别 出 的 专家 专长 如 表 1 所 示 ( 表 
中 只 列 出 了 发 文 量 在 前 20 位 的 专家 ) 。 表 1 中 的 聚 类 
结果 按照 专家 属于 不 同类 别 的 隶属 度 大 小 排序 ， 如 发 
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文 量 排名 第 一 的 L. Wang 其 聚 类 结果 是 2、1 3 ,表明 其 
研究 专长 主要 在 大 数据 存储 与 分 析 处 理 技术 研 究 , 同 
时 对 大 数据 基本 理论 研究 和 应 用 研究 也 有 所 涉猎 。 从 
表 中 可 以 看 出 发 文 量 在 前 两 位 的 专家 在 三 个 研究 领域 
都 有 所 涉猎 ,属于 多 专长 专家 。 

本 文 对 重奏 K-means 聚 类 算法 和 TFIDF 加 权 的 重 
琶 K-means 聚 类 算法 得 到 的 聚 类 结果 进行 统计 分 析 ， 
统计 数据 分 别 如 图 2 、 图 3 所 示 。 本 文通 过 重 登 聚 类 算 
法 共识 别 出 65 位 多 专长 专家 , 占 全 部 专家 人 数 的 
47.4% ,如 果 使 用 非 重 又 聚 类 进行 专家 识别 , 则 不 能 很 
好 地 识别 出 这 些 多 专长 专家 。 比 如 S，Yogesh 一 方面 
进行 大 数据 实时 存 取 研究 , 男 一 方面 也 将 这 些 技术 应 
用 于 智能 电网 领域 ,在 智能 电网 领域 的 大 数据 存 取 和 
处 理 方面 开展 了 大 量 研究 ,如 果 单 单 把 他 归 为 具有 某 


一 研究 专长 的 专家 则 不 符合 实际 情况 。 从 研究 内 容 上 
看 ,发 文 量 较 高 的 这 137 位 专家 的 研究 专长 主要 集中 
在 大 数据 应 用 研究 ,以 及 大 数据 存储 与 分 析 技 术 研 究 。 
这 也 与 目前 大 数据 相关 技术 已 经 从 基础 研究 走 和 人 实际 
应 用 的 现实 相 一 致 ,智慧 城市 (smart city)、 物 联网 (In- 
ternet of Thing) 等 新 兴 技 术 和 产业 已 经 充分 应 用 了 大 
数据 的 相关 研究 成 果 , 并 不 断 进行 改进 。 同 时 从 结果 
中 也 可 以 看 到 , 兼 具 大 数据 存储 与 分 析 技 术 研 究 专长 
与 大 数据 应 用 研究 专长 的 专家 占 比 达到 33. 6% 
(TFIDF 加 权 的 重合 K-means 聚 类 结果 中 此 项 占 比 达 
到 40.99% ) ,这 表示 大 量 的 专家 在 进行 技术 研究 的 同 
时 也 同样 关注 把 技术 转化 为 实际 应 用 的 研究 ,将 目前 
大 数据 的 存储 与 处 理 技 术 广泛 应 用 于 医疗 、 电 子 商务 、 
交通 安防 .通信 等 领域 和 行业 。 
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表 1 专家 聚 类 结果 (前 20 位 ) 


专家 人 工 标记 


重音 K-means 聚 类 TFIDF 加 权 的 重 释 K-means 聚 类 


L. Wang 
R. Ranjan 
W. Wang 


Cuzzocrea 


ww 上 一 
1 


J. Liu 
Y. Zomaya 
Liu 
L. Wang 
B. Giannakis 
F. Xhafa 
X. Zhang 
J. Chen 
F. Herrera 
J. Kepner 
X. Cheng 
J. Wang 
L. T. Yang 
W. Dou 


V. Gadepally 


CD Le) Le Le) Le) Le) MD [J [J [J [Le 3%] LUD fID fID CD fID fID [J [J) 
1 
1 


Y. Liu 


存储 与 分 析 
技术 46 


11 59 


重 琶 Kmeans 聚 类 各 类 别 专家 数 (位 ) 


基本 理论 研究 


3 
2 0 
区 
存储 与 分 析 
技术 ”局 


22 47 


图 3 TFIDF 加 权 的 重要 Kmeans 聚 类 
各 类 别 专 家 数 ( 位 ) 


4.3 实证 结果 评测 

本 研究 邀请 了 五 位 大 数据 领域 的 专家 对 上 述 的 
137 位 专家 的 研究 专长 进行 人 工 标记 ,以 此 作为 评价 
实验 结果 的 标准 。 首 先 ,笔者 向 领域 专家 介绍 了 本 文 
采用 的 大 数据 领域 研究 的 分 类 标准 及 依据 ,明确 了 三 
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DD DD DD DD ~ DD DD DD bh 


和 3 2 1 3 


LD Nm wm 一 
1 


1 
1 
LD hD Le) [> Le) [Le [> fID 一 一 fID ULD ULD 一 fID CD fID Le [J 
1 
1 


个 研究 领域 的 内 涵 、 概 念 及 边界 ;然后 ,邀请 领域 专家 
对 每 位 作者 发 表 的 论文 进行 研究 领域 划分 ,每 位 作者 
发 表 论文 的 研究 领域 标记 为 作者 的 研究 领域 。 如 果 五 
位 领域 专家 对 于 作者 的 研究 领域 标记 结果 相同 , 则 将 
此 标记 结果 确定 为 该 作者 的 研究 领域 人 工 标记 结 
如 果 领 域 专 家 对 于 作者 的 研究 领域 有 异议 , 即 研究 领 
域 标记 结果 不 同 , 则 笔者 和 领域 专家 将 再 次 阅读 有 异 
议 的 文献 ,然后 通过 讨论 的 方式 最 终 确 定 该 作者 研究 
领域 的 人 工 标记 结果 。 

通过 以 上 的 方法 得 到 了 上 述 137 位 作者 研究 领域 
的 人 工 标记 结果 , 表 1 中 列举 的 人 工 标记 按照 专家 所 
发 表 的 不 同类 别 文 草 数 量 排序 。 部 分 专家 在 两 种 聚 类 
方法 中 得 到 的 聚 类 结果 相同 ,如 发 文 量 排名 第 一 的 工 . 
Wang 发 表 论 文 共计 35 篇 ,涉及 基础 理论 研究 ,如 算法 
改进 ;存储 与 分 析 处 理 技术 研究 ,如 C-Hadoop; 应 用 研 
究 , 如 物 联 网 。 同 时 , 两 种 聚 类 结果 也 有 一 定 的 差异 
性 ,如 发 文 量 排名 16 位 的 Wang 在 重 毒 K-means 算 
法 中 被 分 到 基础 理论 研究 和 存储 与 分 析 处 理 技术 研究 
两 个 类 别 当中 ,在 TFIDF 加 权 的 重 共 KK-means 算法 中 
被 分 到 存储 与 分 析 处 理 技术 研究 中 ,这 一 分 类 结果 也 
和 人 工 标记 结果 相 一 致 。 这 是 因为 TFIDF 表征 了 一 个 
词 的 类 别 区 分 能 力 ,对 关键 词 进行 加 权 之 后 ,类 别 区 分 
能 力 强 的 词 在 聚 类 时 有 更 大 的 影响 ,可 以 优化 聚 类 效 
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以 大 数据 领域 为 例 [ 可 .图 书 情报 工作 ,2018 ,62(3) :55 -63. 


果 ,避免 了 重 毒 和 -means 算法 过 多 地 估计 了 多 专长 专 
家 的 问题 。 

本 文 将 两 种 聚 类 方法 得 到 的 聚 类 结果 与 人 工 标记 
结果 进行 比较 ,计算 召回 率 、 查 准 率 和 F 值 ( 见 表 2)， 


以 此 评价 聚 类 结果 。 
表 2 聚 类 结果 评价 
组 别 指标。 人 工 标记 。 生生。 下， 本 和 和 于 和 
1 人 数 13 21 12 
召回 率 一 69.23% 76.92% 
查 准 率 一 42.86% 83.33% 
F 值 一 52.94% 80. 00% 
2 人 数 104 75 87 
召回 率 一 63.46% 73.08% 
十 ” 查 准 率 a 88. 00% 88. 37% 
F 值 = 73.74% 80. 00% 
人 数 91 121 110 
召回 率 一 97. 80% 92.31% 
查 准 率 一 73.55% 77.06% 
F 值 E 83.96% 84. 00% 


4 粥 类 结果 并 不 尽 如 和 人意 ,但 是 改进 后 的 TFIDF 加 权 
的 怠 亚 K-means 算法 得 到 的 聚 类 结果 在 召回 率 、 查 准 
F 值 上 都 有 较 好 的 表现 :平均 召回 率 达到 


3% ,平均 准确 率 达 到 83.11% ,平均 F 值 达 到 


8160&5% .结果 说 明 本 文 提 出 的 TFIDF 加 权 的 重合 人- 


mgams 算法 可 以 较 准 确 、 高 效 地 识别 专家 专长 。 

对 比 两 种 方法 ,使 用 TFIDF 加 权 的 重奏 K-means 
算 溪 得 到 的 聚 类 结果 相 比 于 重合 -means 算法 有 更 优 
异 的 表现 : 三 组 查 准 率 分 别提 高 40. 48% 、0. 37% 、 
3.51% ,平均 提高 14. 79% ;1.2 两 组 的 召回 率 分 别提 
高 7.69% .9.62% ,虽然 3 组 的 召回 率 下 降 了 5.49%， 
但 是 三 组 平均 而 言 提高 了 3.94% ; 三 组 下 值 分 别提 高 
27. 06% .6.26% .0.04% ,平均 提高 11. 12% 。 专 家 专 
长 识别 的 完整 性 和 准确 性 都 有 了 显著 的 提升 。 特 别 是 
1 组 ,在 使 用 重合 K-means 算法 时 得 到 的 召回 率 、 查 准 
率 和 下 值 均 低 于 70% ,这 可 能 与 从 事 大 数据 基本 理论 
研究 的 专家 数 较 少 ,专家 之 间 的 区 分 度 低 有 关 。 而 当 
对 算法 进行 改进 后 ,1 组 的 查 准 率 由 42. 86% 提高 到 
83.33% ,召回 率 由 69.23% 提高 到 76.92% ,这 一 结果 
表明 通过 TFIDF 对 关键 词 进行 加 权 ,增强 了 其 类 别 区 
分 能 力 , 大 大 地 改善 了 数据 量 较 少 时 识别 效果 不 好 的 
问题 。 


5 ”结论 与 展望 


作为 科学 研究 的 主体 ,专家 在 科学 研究 过 程 中 往 
往 具 有 多 个 研究 兴趣 ,他 们 在 从 事 融合 课题 或 交叉 研 
究 时 具有 不 可 替代 的 优势 。 以 往 的 专家 分 类 方法 往往 
将 专家 唯一 地 划分 到 某 一 领域 ,而 忽略 了 多 专长 专家 
的 识别 。 为 了 识别 多 专长 专家 ,本 文 运用 重 辣 KK-means 
算法 对 专家 进行 聚 类 划分 。 为 了 增强 特征 在 聚 类 时 的 
区 分 作用 ,本 文 创 新 性 地 提出 TFIDF 加 权 的 重信- 
means 算法 对 专家 进行 重 徐 聚 类 分 析 。 以 大 数据 领域 
为 案例 ,将 SCILSSCI 发 文 量 在 10 篇 以 上 的 137 位 专家 
进行 重 又 聚 类 ,结果 表明 大 多 数 专家 涉猎 多 个 人 研究 方 
向 ,其 中 从 事 存 储 与 分 析 处 理 技术 的 专家 与 从 事 应 用 
研究 的 专家 有 较 大 重合 。TFIDF 加 权 的 重 三 K-means 
算法 得 到 的 专家 聚 类 划分 在 查 准 率 、 召 回 率 和 了 值 上 
有 很 好 的 表现 ,可 以 准确 、 高 效 地 识别 出 专家 的 专长 。 
本 研究 提出 的 多 专长 专家 识别 方法 ,弥补 了 传统 专家 
专长 识别 研究 的 不 足 ,实验 结果 表明 这 种 方法 是 行 之 
有 效 的 ,对 于 多 专长 专家 的 识别 有 很 好 的 效果 。 
同时 ,本 人 研究 也 存在 一 些 不 足 。K -means 算法 本 
身 要 求 设 定 聚 类 数目 和 初始 聚 类 中 心 , 重 羡 K-means 
算法 并 不 能 克服 这 一 点 。 本 文 依据 大 数据 领域 内 的 研 
究 报告 和 文献 综述 对 研究 专长 进行 定义 并 确定 聚 类 数 
目 ,但 是 在 分 类 上 粒度 较 粗 ,并 未 深入 到 具体 技术 细 
节 , 从 而 识别 出 的 专家 专长 较为 宽泛 。 在 之 后 的 研究 
中 ,笔者 会 对 细 粒 度 分 类 标准 下 的 专家 专长 识别 效 一 
进行 研究 。 同 时 对 初始 聚 类 中 心 代 表 进 行人 工 选择 ， 
选择 不 同 的 初始 聚 类 中 心 代表 是 否 会 对 聚 类 结果 产生 
影响 是 值得 探究 的 问题 。 本 文中 计算 专家 间距 离 使 用 
了 欧 氏 距离 ,在 之 后 的 研究 中 将 会 对 距离 的 选择 进行 
分 析 , 如 余 汞 距离 等 是 否 能 更 好 的 表征 和 刻画 专家 之 
间 的 距离 ,选择 更 合适 的 距离 度量 方法 进行 聚 类 计算 ， 
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Multi-expertise Researcher Identification :A Case Study of the Big Data 
Liu Xiaoyu Zhu Donghua Wang Xuefeng Huang Ying 

E School of Management and Economics ，Beijing Institute of Technology ，Beijing 100081 

2>>Apbstract: [Purpose/significance | In response to the rapid shifting of knowledge needs, how to choose the appro- 
priale researchers for a given problem is an important issue for the government, companies, as well as research institu- 
tignh When we face a real complex problem , it is essential to find multi-expertise researchers. This research aims to find 
a (ordper way to identify multi-expertise researchers. [Method/process |This paper used a Term Frequency - Inverse Doc- 
i Frequency (TFIDF ) weighted overlapping K -means clustering method. Based on the researchers ”co -authorship 
netiprk built up from the publication data, the TFIDF weighted overlapping K -means clustering method was applied to 
cl researchers into overlapping clusters and identify the mnulti -expertise researchers. [ Result/conclusion | Results 
show that the TFIDF weighted overlapping K-means method has an advantage over the previous work in terms of the preci- 
si@Nkatio, the recall ratio and the F-value, so such a method can be beneficial to identify multi -expertise researchers. 

SsKeywords: researcher identification overlapping K-means multi-expertise researcher big data Term Frequency 
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